Model Selection

Swin-GPT2 Architecture

# Swin-GPT2 Architecture

A VisionEncoderDecoder model for generating LaTeX formulas from images, utilizing Swin Transformer encoder and GPT-2 decoder architecture

Vit Swin Base 224 Gpt2 Image Captioning

An image caption generation model based on the VisionEncoderDecoder architecture, using Swin Transformer as the visual encoder and GPT-2 as the decoder, fine-tuned on the COCO2014 dataset

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase